So sánh các mô hình sử dụng dữ liệu: Dải nhãn đánh dấu

Thành công trong triển khai các mô hình học máy phụ thuộc một cách quyết định vào sự sẵn có, chất lượng và chi phí của dữ liệu đã được gán nhãn. Trong những môi trường mà việc đánh dấu dữ liệu bằng con người là tốn kém, không khả thi hoặc đòi hỏi chuyên môn cao, các mô hình tiêu chuẩn sẽ trở nên kém hiệu quả hoặc thất bại hoàn toàn. Chúng tôi giới thiệu dải nhãn đánh dấu, phân biệt ba phương pháp cốt lõi dựa trên cách chúng tận dụng thông tin:Học giám sát (SL), Học phi giám sát (UL), và Học bán giám sát (SSL).

1. Học giám sát (SL): Độ chính xác cao, chi phí cao

SL hoạt động trên các tập dữ liệu mà mỗi đầu vào $X$ đều được ghép cụ thể với một nhãn chân lý đã biết $Y$. Mặc dù phương pháp này thường đạt độ chính xác dự đoán cao nhất cho các nhiệm vụ phân loại hoặc hồi quy, nhưng sự phụ thuộc vào việc đánh dấu dày đặc và chất lượng cao lại rất tốn kém về nguồn lực. Hiệu suất giảm mạnh nếu số lượng ví dụ có nhãn ít ỏi, khiến mô hình này dễ bị gián đoạn và thường không bền vững về mặt kinh tế đối với các tập dữ liệu lớn và đang thay đổi liên tục.

2. Học phi giám sát (UL): Phát hiện cấu trúc tiềm ẩn

UL chỉ hoạt động trên dữ liệu chưa được gán nhãn, $D = \{X_1, X_2, ..., X_n\}$. Mục tiêu của nó là suy luận ra các cấu trúc nội tại, phân bố xác suất nền tảng, mật độ hay các biểu diễn ý nghĩa nằm trong đa tạp dữ liệu. Các ứng dụng chính bao gồm nhóm dữ liệu (clustering), học đa tạp (manifold learning) và học biểu diễn (representation learning). UL cực kỳ hiệu quả trong xử lý tiền và trích xuất đặc trưng, cung cấp những hiểu biết quý giá mà không phụ thuộc vào đầu vào từ con người bên ngoài.

Cầu nối Học bán giám sát

Học bán giám sát (SSL)là một giải pháp thực tế, tận dụng một tập dữ liệu có nhãn nhỏ nhưng tốn kém ($D_L$) để làm điểm tựa cho các dự đoán, đồng thời khai thác một tập dữ liệu chưa gán nhãn khổng lồ và rẻ tiền ($D_U$) để mô hình hóa phân bố dữ liệu. Mô hình này giảm bớt điểm nghẽn về chi phí đánh dấu, giúp mở rộng khả năng tổng quát một cách vững chắc trong các tình huống thực tế.

Diagram of the labeling spectrum showing Supervised, Unsupervised, and Semi-Supervised Learning.

Câu hỏi 1

Mô hình học nào được thiết kế đặc biệt nhằm giảm thiểu sự phụ thuộc cao vào việc đánh dấu dữ liệu đắt đỏ của con người bằng cách tận dụng dữ liệu chưa gán nhãn phong phú?

Học giám sát

Học phi giám sát

Học bán giám sát

Học tăng cường

Câu hỏi 2

Nếu nhiệm vụ chính của mô hình là giảm chiều dữ liệu (ví dụ: tìm thành phần chính) hoặc nhóm dữ liệu, thì mô hình nào được áp dụng phổ biến nhất?

Học giám sát

Học bán giám sát

Học phi giám sát

Học truyền

Thử thách: Xác định Mục tiêu của SSL

Khái niệm về Hàm tổn thất Tổng hợp

Khác với SL, vốn tối ưu chỉ dựa trên độ chính xác của nhãn, SSL yêu cầu chiến lược tối ưu cân bằng. Hàm tổn thất tổng phải phản ánh độ chính xác dự đoán trên tập dữ liệu có nhãn, đồng thời buộc tính nhất quán (ví dụ: độ mịn hoặc phân tách mật độ thấp) trên tập dữ liệu chưa gán nhãn.

Cho: $D_L$: Dữ liệu có nhãn. $D_U$: Dữ liệu chưa gán nhãn. $\mathcal{L}_{SL}$: Hàm tổn thất giám sát. $\mathcal{L}_{Consistency}$: Hàm tổn thất buộc độ mịn dự đoán trên $D_U$.

Bước 1

Viết dạng tổng quát của mục tiêu tối ưu tổng thể $\mathcal{L}_{SSL}$, bao gồm hệ số trọng số $\lambda$ cho thành phần nhất quán của dữ liệu chưa gán nhãn.

Lời giải:
Dạng khái niệm của hàm tổn thất SSL tổng là tổng có trọng số của hai thành phần: $\mathcal{L}_{SSL} = \mathcal{L}_{SL}(D_L) + \lambda \cdot \mathcal{L}_{Consistency}(D_U)$. Hệ số $\lambda$ điều khiển sự cân bằng giữa độ trung thực nhãn và sự phụ thuộc vào cấu trúc.